对本地网络媒体的信息量感兴趣,于是针对以下三个板块的标题进行采集分析:
标题采集
为了快速编码,采集部分使用了 Scrapy 框架,以下代码实现了自动遍历 目标板块 所有页面,并将页面保存至本地:
1 | def parse(self, response): |
出于个人的习惯,Scrapy 仅作为下载器使用。
内容解析
下载所有页面后,对所有页面进行解析,如果倾向于边采集边解析,可以在 标题采集 中完成内容解析。以下使用了 BeautifulSoup 获取本地所有页面的标题集,并将其保存至文件中:
1 | f = open(path,'w') |
标题贡献量:
- 苍南在线:1099
- 苍南网:7108
- 龙港网:36694
词频统计
起初没有打算使用 python 进行词频统计,因此 内容解析 和 词频统计 的代码没有合并在一起。在得知标题数量并不多的情况下,决定使用 jieba 对标题进行分词操作,分出来的 词 作为字典的 key , 词 的出现次数作为字典的 vlaue 。实现代码如下:
1 | import jieba |
输出如下:
1 | 龙港:10902 |
停止词出现的频率太高,于是加入停止词字典进行过滤,同时计算百分比,效果如下:
1 | 龙港:10902 24.280083% |
如需再进一步过滤可以自定义停止词字典,加入 龙港 、 苍南 、 灵溪 等本地化词汇,以方便分析数据。